summary(rwq)
## X fixed.acidity volatile.acidity citric.acid
## Min. : 1.0 Min. : 4.60 Min. :0.1200 Min. :0.000
## 1st Qu.: 400.5 1st Qu.: 7.10 1st Qu.:0.3900 1st Qu.:0.090
## Median : 800.0 Median : 7.90 Median :0.5200 Median :0.260
## Mean : 800.0 Mean : 8.32 Mean :0.5278 Mean :0.271
## 3rd Qu.:1199.5 3rd Qu.: 9.20 3rd Qu.:0.6400 3rd Qu.:0.420
## Max. :1599.0 Max. :15.90 Max. :1.5800 Max. :1.000
## residual.sugar chlorides free.sulfur.dioxide
## Min. : 0.900 Min. :0.01200 Min. : 1.00
## 1st Qu.: 1.900 1st Qu.:0.07000 1st Qu.: 7.00
## Median : 2.200 Median :0.07900 Median :14.00
## Mean : 2.539 Mean :0.08747 Mean :15.87
## 3rd Qu.: 2.600 3rd Qu.:0.09000 3rd Qu.:21.00
## Max. :15.500 Max. :0.61100 Max. :72.00
## total.sulfur.dioxide density pH sulphates
## Min. : 6.00 Min. :0.9901 Min. :2.740 Min. :0.3300
## 1st Qu.: 22.00 1st Qu.:0.9956 1st Qu.:3.210 1st Qu.:0.5500
## Median : 38.00 Median :0.9968 Median :3.310 Median :0.6200
## Mean : 46.47 Mean :0.9967 Mean :3.311 Mean :0.6581
## 3rd Qu.: 62.00 3rd Qu.:0.9978 3rd Qu.:3.400 3rd Qu.:0.7300
## Max. :289.00 Max. :1.0037 Max. :4.010 Max. :2.0000
## alcohol quality
## Min. : 8.40 Min. :3.000
## 1st Qu.: 9.50 1st Qu.:5.000
## Median :10.20 Median :6.000
## Mean :10.42 Mean :5.636
## 3rd Qu.:11.10 3rd Qu.:6.000
## Max. :14.90 Max. :8.000
qplot(x=quality, data=rwq) +
xlab("Qualidade") + ylab("Quantidade") +
ggtitle("Distribuição dos vinhos por qualidade")
A maioria das amostras tiveram notas entre 5 e 6, o que classificamos como mediano ou normal.
rwq$quality_group <- cut(rwq$quality, breaks = c(0, 4, 7, 10),
labels = c('baixa', 'normal', 'alta') )
summary(rwq$quality_group)
## baixa normal alta
## 63 1518 18
rwq.baixo_normal <- subset(rwq, quality_group %in% c('baixa', 'normal'))
rwq.alto_baixo <- subset(rwq, quality_group %in% c('baixa', 'alta'))
rwq.alto <- subset(rwq, quality_group ='alta')
Quanto a acidez
g1 <- qplot(x = fixed.acidity,
data = rwq.baixo_normal) +
scale_x_continuous(limits = c(4, 16),breaks = seq(4, 16, 0.5)) +
ggtitle(parse(text= "Acidez *(g/dm^3)"))
g2 <- qplot(x = log10(fixed.acidity),
data = rwq.baixo_normal) +
ggtitle(parse(text= "Acidez(log10) *(g/dm^3)"))
grid.arrange(g1,g2)
O gráfico apresenta um distribuição normal com uma grande cauda a direita, neste caso, foi utilizado uma transformação log10 para melhorar a visualização. Nota-se que temos uma concentração de acideze entre 0.8 e 1.
Quanto a acidez volátil. Neste caso, quanto menor a acidez melhor, pois quanto maior for o % de acidez volátil maior o sabor de vinagre.
qplot(x=log10(volatile.acidity)+1,
data = rwq.baixo_normal,
xlab=expression(paste('Acidez volátil (g/',dm^3,')',sep=''))) +
scale_x_continuous(limits = c(0, 1.5), breaks = seq(0, 1.5, 0.1)) +
ggtitle("Acidez volátil")
O gráfico de acidez volátil apresenta uma distribuição normal.
Quanto a acido citrico. Nos vinhos tintos pode desaparecer devido à ação de bactérias láticas.
qplot(x=citric.acid,
data = rwq.baixo_normal,
xlab=expression(paste('Acido cítrico (g/',dm^3,')',sep=''))) +
geom_histogram(binwidth = 0.005) +
ggtitle("Acido citrico.")
Nste gráfico podemos ver uma distribuição irregular dos dados, diferente dos demais gráfico, que apresentam uma distribuição normal, sendo a maioria deles com cauda a direita.
Quanto a açucar residual.
g1 <-qplot(x=residual.sugar,
data = rwq.baixo_normal,
xlab=expression(paste('Açúcar (g/',dm^3,')',sep=''))) +
geom_histogram(binwidth = 0.05) +
ggtitle("Açúcar")
g2 <- qplot(x = log10(residual.sugar),
data = rwq.baixo_normal,
xlab=expression(paste('Açúcar log10 (g/',dm^3,')',sep=''))) +
geom_histogram(binwidth = 0.05) +
ggtitle("Açúcar usando log10")
grid.arrange(g1,g2)
O gráfico apresenta um distribuição normal com uma grande cauda a direita, neste caso, foi utilizado uma transformação log10 para melhorar a visualização. Nota-se que temos uma concentração de açúcar residual entre 1 e 4.
Quanto a cloretos.
g1 <- qplot(x=chlorides,
data = rwq.baixo_normal,
xlab=expression(paste('Cloretos (g/',dm^3,')',sep=''))) +
scale_x_continuous(limits = c(0, 0.5),breaks = seq(0, 0.5, 0.02)) +
ggtitle("Cloretos")
g2 <- qplot(x=log10(chlorides) +1,
data = rwq.baixo_normal,
xlab=expression(paste('Cloretos log10 (g/',dm^3,')',sep=''))) +
ggtitle("Cloretos")
grid.arrange(g1,g2)
Este gráfico apresnta um distribuição normal.
Quanto a Dióxido sulfurico livre
g1 <- qplot(x=free.sulfur.dioxide,
data = rwq.baixo_normal,
xlab=expression(paste('Dióxido sulfurico livre (mg/',dm^3,')',sep=''))) +
scale_x_continuous(limits = c(1, 72),breaks = seq(1, 72, 2)) +
ggtitle("Dióxido sulfurico livre")
g2 <- qplot(x = log10(free.sulfur.dioxide),
data = rwq.baixo_normal,
xlab=expression(paste('Dióxido sulfurico livre log10 (mg/',dm^3,')',sep=''))) +
geom_histogram(binwidth = 0.05) +
ggtitle("Dióxido sulfurico livre usando log10")
grid.arrange(g1,g2)
Este gráfico apresenta uma distribuição quase normal com um desvio a direita.
Quanto a cloretos totais.
g1 <- qplot(x=total.sulfur.dioxide,
data = rwq.baixo_normal,
xlab=expression(paste('cloretos totais (mg/',dm^3,')',sep=''))) +
scale_x_continuous(limits = c(5, 155),breaks = seq(5, 155,5 )) +
ggtitle("cloretos totais ")
g2 <- qplot(x = log10(total.sulfur.dioxide),
data = rwq.baixo_normal,
xlab=expression(paste('cloretos totais log10 (mg/',dm^3,')',sep=''))) +
geom_histogram(binwidth = 0.05) +
ggtitle("cloretos totais usando log10")
g3 <- qplot(x = sqrt(total.sulfur.dioxide),
data = rwq.baixo_normal,
xlab=expression(paste('cloretos totais sqrt (mg/',dm^3,')',sep=''))) +
geom_histogram(binwidth = 0.05) +
ggtitle("cloretos totais usando sqrt")
grid.arrange(g1,g2,g3)
O gráfico apresenta um distribuição normal com uma grande cauda a direita, neste caso, foi utilizado uma transformação log10 para melhorar a visualização. Nota-se que temos uma concentração de cloretos totais entre 10 e 20.
Quanto a densidade.
qplot(x=density,
data = rwq.baixo_normal,
xlab=expression(paste('densidade (g/',cm^3,')',sep=''))) +
scale_x_continuous(limits = c(0.99,1),breaks = seq(0.99, 1, 0.005)) +
ggtitle("Densidade")
O gráfico de densidade mostra um distribuição normal com valores entre 0.990 e 1, sendo que maioria dos valores se encontram entre 0.996 e 0.998
Quanto ao PH
qplot(x=pH,
data = rwq.baixo_normal) +
scale_x_continuous(limits = c(2.5,4),breaks = seq(0, 5, 0.2)) +
ggtitle("Ph")
O gráfico de ph mostra um distribuição normal com valores entre 2.8 e 3.8. Sendo que 50% dos valores se encontram entre 3.2 e 3.4
Quanto ao sulfatos
Este gráfico mostra uma distribuição normal com os valores variando entre 0.4 e 0.8.
Quanto ao alcool.
g1 <- qplot(x=alcohol,
data = rwq.baixo_normal,
xlab=expression(paste('alcool (% por volume)',sep=''))) +
scale_x_continuous(limits = c(8,15),breaks = seq(8,15, 0.5)) +
ggtitle("Alcool")
g2 <- qplot(x = log10(alcohol),
data = rwq.baixo_normal,
xlab=expression(paste('alcool log10 (% por volume)',sep=''))) +
geom_histogram(binwidth = 0.05) +
ggtitle("Alcool usando log10")
grid.arrange(g1,g2)
O gráfico apresenta um distribuição normal com um viés a direita, neste caso, foi utilizado uma transformação log10 para melhorar a visualização. Nota-se que temos uma concentração de alcool entre 10 e 10.
summary(rwq.baixo_normal)
## X fixed.acidity volatile.acidity citric.acid
## Min. : 1.0 Min. : 4.600 Min. :0.120 Min. :0.0000
## 1st Qu.: 399.0 1st Qu.: 7.100 1st Qu.:0.390 1st Qu.:0.0900
## Median : 800.0 Median : 7.900 Median :0.520 Median :0.2600
## Mean : 799.7 Mean : 8.317 Mean :0.529 Mean :0.2696
## 3rd Qu.:1199.0 3rd Qu.: 9.200 3rd Qu.:0.640 3rd Qu.:0.4200
## Max. :1599.0 Max. :15.900 Max. :1.580 Max. :1.0000
## residual.sugar chlorides free.sulfur.dioxide
## Min. : 0.900 Min. :0.01200 Min. : 1.0
## 1st Qu.: 1.900 1st Qu.:0.07000 1st Qu.: 7.0
## Median : 2.200 Median :0.07900 Median :14.0
## Mean : 2.538 Mean :0.08768 Mean :15.9
## 3rd Qu.: 2.600 3rd Qu.:0.09100 3rd Qu.:21.0
## Max. :15.500 Max. :0.61100 Max. :72.0
## total.sulfur.dioxide density pH sulphates
## Min. : 6.00 Min. :0.9901 Min. :2.740 Min. :0.3300
## 1st Qu.: 22.00 1st Qu.:0.9956 1st Qu.:3.210 1st Qu.:0.5500
## Median : 38.00 Median :0.9968 Median :3.310 Median :0.6200
## Mean : 46.62 Mean :0.9968 Mean :3.312 Mean :0.6569
## 3rd Qu.: 62.00 3rd Qu.:0.9979 3rd Qu.:3.400 3rd Qu.:0.7300
## Max. :289.00 Max. :1.0037 Max. :4.010 Max. :2.0000
## alcohol quality quality_group
## Min. : 8.4 Min. :3.000 baixa : 63
## 1st Qu.: 9.5 1st Qu.:5.000 normal:1518
## Median :10.1 Median :6.000 alta : 0
## Mean :10.4 Mean :5.609
## 3rd Qu.:11.0 3rd Qu.:6.000
## Max. :14.9 Max. :7.000
Neste caso apenas 18 vinhos receberam a nota maior ou igual a 7. Como era esperado as informações diferem dos vinhos considerados baixos e normais.
rwq_quality <- subset(rwq,quality>=7)
summary(rwq_quality)
## X fixed.acidity volatile.acidity citric.acid
## Min. : 8.0 Min. : 4.900 Min. :0.1200 Min. :0.0000
## 1st Qu.: 482.0 1st Qu.: 7.400 1st Qu.:0.3000 1st Qu.:0.3000
## Median : 939.0 Median : 8.700 Median :0.3700 Median :0.4000
## Mean : 831.7 Mean : 8.847 Mean :0.4055 Mean :0.3765
## 3rd Qu.:1089.0 3rd Qu.:10.100 3rd Qu.:0.4900 3rd Qu.:0.4900
## Max. :1585.0 Max. :15.600 Max. :0.9150 Max. :0.7600
## residual.sugar chlorides free.sulfur.dioxide
## Min. :1.200 Min. :0.01200 Min. : 3.00
## 1st Qu.:2.000 1st Qu.:0.06200 1st Qu.: 6.00
## Median :2.300 Median :0.07300 Median :11.00
## Mean :2.709 Mean :0.07591 Mean :13.98
## 3rd Qu.:2.700 3rd Qu.:0.08500 3rd Qu.:18.00
## Max. :8.900 Max. :0.35800 Max. :54.00
## total.sulfur.dioxide density pH sulphates
## Min. : 7.00 Min. :0.9906 Min. :2.880 Min. :0.3900
## 1st Qu.: 17.00 1st Qu.:0.9947 1st Qu.:3.200 1st Qu.:0.6500
## Median : 27.00 Median :0.9957 Median :3.270 Median :0.7400
## Mean : 34.89 Mean :0.9960 Mean :3.289 Mean :0.7435
## 3rd Qu.: 43.00 3rd Qu.:0.9973 3rd Qu.:3.380 3rd Qu.:0.8200
## Max. :289.00 Max. :1.0032 Max. :3.780 Max. :1.3600
## alcohol quality quality_group
## Min. : 9.20 Min. :7.000 baixa : 0
## 1st Qu.:10.80 1st Qu.:7.000 normal:199
## Median :11.60 Median :7.000 alta : 18
## Mean :11.52 Mean :7.083
## 3rd Qu.:12.20 3rd Qu.:7.000
## Max. :14.00 Max. :8.000
Nesta amostra, nos temos os dados de 1599 observações de vinhos com 12 campos de características. Essas características combinadas podem fazer um vinho ser classificado em uma escala de 0 a 10, onde 0 é um vinho ruim e 10 um ótimo vinho.
Qualidade.Neste caso estamos procurando identificar quais as características principais de um vinho considerado de boa qualidade. Escolhemos comparar os vinhos considerados de qualidade baixa e normal ( entre 3 a 7), com os vinhos considerados de qualidade alta (acima de 7)
Dióxido livres e totais. Acredito que tenham um relação direta com a qualidade do vinho,porém, só podem ser confirmado a medida que a exploração avança.
Você criou novas variáveis das já existentes no conjunto de dados? Foi criada um nova variável chamada quality_group, onde foi classificado os vinhos conforme as faixas: 0 a 4 -> baixa 4 a 7 -> normal
7 a 10 -> alta
Para uma primeira análise verifica-se as correlações entre as váriaveis, criando um gráfico com as correlações para uma melhor visualização.
rwq_corr <- subset( rwq, select = -c(quality_group) )
W<-cor(rwq_corr)
corrplot(W, method = 'number' , title='Gráfico de correlação entre os vinhos tintos', mar=c(0,0,1,0))
Com a visualização, observa-se que a temos uma correlação positiva com os acido cítrico,sulfatos e alcool além uma forte correlação negativa com acidez volátil e densidade. Os valors positivos estão variando de 0.23 até 0.48, o valor da correlação negativa foi de -0.39.
Vamos análisar separadamente cada um deste elementos para descobrir como eles estão relacionados a qualidade dos vinhos.
Acido cítrico x Qualidade
ggplot(aes(x = factor(quality), y = citric.acid),
data = rwq) +
xlab("Qualidade") +
ylab(expression(paste('Acido cítrico (g/',dm^3,')',sep=''))) +
geom_boxplot() + ggtitle("Qualidade x acido crítico")
by(rwq$citric.acid, rwq$quality, summary)
## rwq$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0050 0.0350 0.1710 0.3275 0.6600
## --------------------------------------------------------
## rwq$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0300 0.0900 0.1742 0.2700 1.0000
## --------------------------------------------------------
## rwq$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0900 0.2300 0.2437 0.3600 0.7900
## --------------------------------------------------------
## rwq$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0900 0.2600 0.2738 0.4300 0.7800
## --------------------------------------------------------
## rwq$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.3050 0.4000 0.3752 0.4900 0.7600
## --------------------------------------------------------
## rwq$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0300 0.3025 0.4200 0.3911 0.5300 0.7200
Neste gráfico podemos ver que os vinhos que apresentam as melhores notas possuem uma maior quantidade de acido cítrico.
Sulfatos x Qualidade
ggplot(aes(x = factor(quality), y = sulphates), data = rwq) +
geom_boxplot() +
xlab("Qualidade") +
ylab(expression(paste('Sulfatos (mg/',dm^3,')',sep=''))) +
ggtitle("Qualidade x Sulfatos")
by(rwq$sulphates, rwq$quality, summary)
## rwq$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4000 0.5125 0.5450 0.5700 0.6150 0.8600
## --------------------------------------------------------
## rwq$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3300 0.4900 0.5600 0.5964 0.6000 2.0000
## --------------------------------------------------------
## rwq$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.370 0.530 0.580 0.621 0.660 1.980
## --------------------------------------------------------
## rwq$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4000 0.5800 0.6400 0.6753 0.7500 1.9500
## --------------------------------------------------------
## rwq$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3900 0.6500 0.7400 0.7413 0.8300 1.3600
## --------------------------------------------------------
## rwq$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.6300 0.6900 0.7400 0.7678 0.8200 1.1000
Neste gráfico podemos ver que os vinhos que apresentam as melhores notas possuem uma maior quantidade de sulfatos.
Acidez volátil x Qualidade
ggplot(aes(x = factor(quality), y = volatile.acidity), data = rwq) +
geom_boxplot() +
xlab("Qualidade") +
ylab(expression(paste('Acidez Volátil (g/',dm^3,')',sep=''))) +
ggtitle("Qualidade x Acidez Volátil")
by(rwq$volatile.acidity, rwq$quality, summary)
## rwq$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.4400 0.6475 0.8450 0.8845 1.0100 1.5800
## --------------------------------------------------------
## rwq$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.230 0.530 0.670 0.694 0.870 1.130
## --------------------------------------------------------
## rwq$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.180 0.460 0.580 0.577 0.670 1.330
## --------------------------------------------------------
## rwq$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1600 0.3800 0.4900 0.4975 0.6000 1.0400
## --------------------------------------------------------
## rwq$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1200 0.3000 0.3700 0.4039 0.4850 0.9150
## --------------------------------------------------------
## rwq$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2600 0.3350 0.3700 0.4233 0.4725 0.8500
Neste caso quanto menor a acidez volátil, melhor será o vinho, corroborando com a correlação negativa previamente apresentada.
Alcool x Qualidade
ggplot(aes(x = factor(quality), y = alcohol), data = rwq) +
geom_boxplot() +
xlab("Qualidade") +
ylab(expression(paste('Alcool (% por volume)',sep=''))) +
ggtitle("Qualidade x Alcool")
by(rwq$alcohol, rwq$quality, summary)
## rwq$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.400 9.725 9.925 9.955 10.580 11.000
## --------------------------------------------------------
## rwq$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 9.00 9.60 10.00 10.27 11.00 13.10
## --------------------------------------------------------
## rwq$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.5 9.4 9.7 9.9 10.2 14.9
## --------------------------------------------------------
## rwq$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.40 9.80 10.50 10.63 11.30 14.00
## --------------------------------------------------------
## rwq$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 9.20 10.80 11.50 11.47 12.10 14.00
## --------------------------------------------------------
## rwq$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 9.80 11.32 12.15 12.09 12.88 14.00
Neste caso, podemos observar com maior clareza, a maior correlação que observamos (0.48), ou seja, quanto maior a concentração de alcool, melhor a qualidade do vinho.
Densidade x Qualidade
ggplot(aes(x = factor(quality), y = density), data = rwq) +
geom_boxplot() +
xlab("Qualidade") +
ylab(expression(paste('densidade (g/',cm^3,')',sep=''))) +
ggtitle("Qualidade x Densidade")
by(rwq$density, rwq$quality, summary)
## rwq$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9947 0.9962 0.9976 0.9975 0.9988 1.0010
## --------------------------------------------------------
## rwq$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9934 0.9956 0.9965 0.9965 0.9974 1.0010
## --------------------------------------------------------
## rwq$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9926 0.9962 0.9970 0.9971 0.9979 1.0030
## --------------------------------------------------------
## rwq$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9901 0.9954 0.9966 0.9966 0.9979 1.0040
## --------------------------------------------------------
## rwq$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9906 0.9948 0.9958 0.9961 0.9974 1.0030
## --------------------------------------------------------
## rwq$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9908 0.9942 0.9949 0.9952 0.9972 0.9988
Assim como a acidez volátil, a densidade também apresentou correlação negativa, o que pode ser obsevado no gráfico, onde temos os menores valores para densidade no vinhos de melhor qualidade.
Densidade x Alcool
ggplot(aes(x = alcohol, y = density), data = rwq) +
geom_point() +
xlab("Alcool(% por volume)") +
ylab(expression(paste('densidade (g/',cm^3,')',sep=''))) +
ggtitle("Densidade x Alcool") +
geom_smooth(method = 'lm')
Uma das correlações que se destacam , é a de densidade e alcool. Neste caso podemos observar que quanto maior o teor de alcool, menos denso é o vinho.
Estamos buscando saber como as características da amostras se comportam em relaçõa a qualidade do vinho. Neste caso, as que mais de destacaram foram as correlações positivas com do acido cítrico,sulfatos e alcool além uma forte correlação negativa com acidez volátil e densidade. Os gráficos mostram que o alcool é um dos grandes fatores que levam o vinho a ser de qualidade ou não.
Uma das correlações que me chamou a atenção foi entre alcool e densidade. Neste caso, podemos ver pelo gráfico que os vinhos mais densos, possuem um teor alcolico menor. Ainda não é possível determinar com certeza, mas com o avançar dos estudos podemos conferir, se os melhores vinhos são aqueles com a menor densidade e o maior teor alcolico.
As maiores foram entre: ph x acidez fixo correlação negativa no valor de 0.68 densidade x acidez fixa correlação positiva no valor de 0.67 acido cítrico x acidez fixa correlação positiva no valor de 0.67
Baseados nas informações retiradas da tabela de correlação vamos agora analisar os dados de densidade e açucar baseado na qualidade.
g1 <- ggplot(data=rwq,
aes(x=density, y = residual.sugar, color = factor(quality_group))) +
geom_point() +
xlab(expression(paste('densidade (g/',cm^3,')',sep=''))) +
ylab(expression(paste('açúcar (g/',dm^3,')',sep=''))) +
ggtitle("Qualidade do vinho por Açucar x Densidade")
g2 <- ggplot(data=rwq.alto_baixo,
aes(x=density, y = residual.sugar, color = factor(quality_group))) +
geom_point() + geom_smooth() +
xlab(expression(paste('densidade (g/',cm^3,')',sep=''))) +
ylab(expression(paste('açúcar (g/',dm^3,')',sep=''))) +
ggtitle("Qualidade do vinho por Açúcar x Densidade")
grid.arrange(g1,g2)
O primeiro gráfico mostra todos os agrupamentos utilizados, ou seja, os vinhos de baixa , normal e alta qualidade.
No segundo gráfico, apenas utilizamos os vinhos de baixa e alta qualidade, para podemos destacar a diferença entre eles.
Podemos notar um padrão de agrupamento, onde os vinhos de boa qualidade possuem baixa densidade além de baixo nível de açúcar.
Agora iremos analisar a qualidade do vinho baseado no teor de alcool e sua densidade.
g1 <- ggplot(data=rwq, aes(x=alcohol, y = density,
color = factor(quality_group))) +
geom_point() +
geom_smooth(method = loess, fullrange = TRUE, alpha = 0.1, size = 1.5 ) +
xlab(expression(paste('Alcool (% por volume)',sep=''))) +
ylab(expression(paste('densidade (g/',cm^3,')',sep=''))) +
ggtitle("Qualidade do vinho por densidade x alcool")
g2 <- ggplot(data=rwq.alto_baixo,
aes(x=alcohol, y = density,color = factor(quality_group))) +
geom_point() +
geom_smooth(method = loess, fullrange = TRUE, alpha = 0.1, size = 1.5 ) +
xlab(expression(paste('Alcool (% por volume)',sep=''))) +
ylab(expression(paste('densidade (g/',cm^3,')',sep=''))) +
ggtitle("Qualidade do vinho por densidade x alcool")
grid.arrange(g1,g2)
Neste gráfico podemos notar um padrão onde baixo teor alcólico combinado com alta densidade, produzem vinhos de baixa qualidade, ao contrário dos vinhos de alta qualidade que possuem um teor alcolico mais elevado e uma densidade baixa como vimos previamente.
Agora analisaremos quanto a acidez volátil
g1 <- ggplot(data=rwq, aes(x=alcohol, y = volatile.acidity,
color = factor(quality_group))) +
geom_point() +
geom_smooth(method = loess, fullrange = TRUE, alpha = 0.1, size = 1.5 ) +
xlab(expression(paste('Alcool (% por volume)',sep=''))) +
ylab(expression(paste('Acidez Volátil (g/',dm^3,')',sep=''))) +
ggtitle("Qualidade do vinho por acidez volátil x alcool")
g2 <- ggplot(data=rwq.alto_baixo, aes(x=alcohol, y = volatile.acidity,
color = factor(quality_group))) +
geom_point() +
geom_smooth(method = loess, fullrange = TRUE, alpha = 0.1, size = 1.5 ) +
xlab(expression(paste('Alcool (% por volume)',sep=''))) +
ylab(expression(paste('Acidez Volátil (g/',dm^3,')',sep=''))) +
ggtitle("Qualidade do vinho por acidez volátil x alcool")
grid.arrange(g1,g2)
Uma das características marcantes dos vinhos de boa qualidade estão mostradas neste gráfico. Os vinhos de boa qualidade possume um alto teor alcolico ( maior que 10%) e baixa acidez volátil, enquanto os vinhos de baixa qualidade possuem uma acidez volátil alta e teor alcolico baixo.
Os relacionamento que podemos citar, e que já haviíamos demonstrado que poderiam estar muito ligados, seria o relativo a densidade, açúcar e alcool. Podemos comprovar que quanto maior o teor alcólico e menor será a densidade do vinho, ocasionando vinhos de alta qualidade, somando-se a isso a quantidade de açúcar, ou seja, nos vinho de alta qualidade forem encontrados os menores níveis de açúcar.
Como uma observação pessoal, fiquei supreso ao saber o que é a acidez volátil, que é que causa o aroma de vinagre nos vinhos, quando em doses elevadas. Neste caso faz sentido, que os vinhos considerados de alta qualidade tenham a acidez volátil em baixa quantidade, em relação a maiores concentrações nos vinhos de baixa qualidade.
Este gráfico mostra como está a distribuição da nossa amostra. Neste caso temos muitos vinhos considerados normais, ou seja aquelas que estão na faixa de 5 a 7, e muito poucos vinhos cosiderados alto, ou seja na faixa de 8.
Este gráfico mostra a correlação entre todas as características da nossa amostra. Ficam mais evidentes as correlações que exploramos para descobrir as carcaterísticas que um bom vinho tem que ter, tais como acidez volátil que apresentou uma correlação negativa de 0.39 em relaçõa a qualidade, o que foi comprovado nos gráficos demonstrados, pois essa acidez quanto menor mlehor, pois em altas concentrações, produz um vinho com sabor de vinagre.
A densidade apresentou correlação negativa de 0.17, pois os vinhos com qualidade alta apresentaram as menores densidades.
O açúcar é um fator importante, conforme apresentado, pois quanto menor sua concentração mais alta a qualidade do vinho.
O alcool apresentou o maior fator de correlação, 0.48, sendo um fator muito importante para a alta qualidade dos vinhos, pois quanto maior o teor alcólico mais alta a qualidade do vinho.
## density residual.sugar volatile.acidity alcohol
## Min. :0.9901 Min. : 0.900 Min. :0.1200 Min. : 8.40
## 1st Qu.:0.9956 1st Qu.: 1.900 1st Qu.:0.3900 1st Qu.: 9.50
## Median :0.9968 Median : 2.200 Median :0.5200 Median :10.20
## Mean :0.9967 Mean : 2.539 Mean :0.5278 Mean :10.42
## 3rd Qu.:0.9978 3rd Qu.: 2.600 3rd Qu.:0.6400 3rd Qu.:11.10
## Max. :1.0037 Max. :15.500 Max. :1.5800 Max. :14.90
Estes gráficos demonstram as diferenças e as principais características que um vinho de alta qualidade deve possuir, e que os diferem dos vinhos de baixa qualiade. Neste exemplo podemos ver que os vinhos considerados de alta qualidade devem ter baixa densidade ,acidez volátil e açúcares e um alto teor alcoolico, a tabela anexa demonstra os as médias dos vinhos considerados de alta qualiadade.
As informações da base de dados continham 1599 observações a respeito de diversos vinhos, suas propriedades químicas e foram avalidades relativo a sua qualidade. Para analisar a base de dados e descobrir quais os fatores que levam um vinho a ser considerado de boa qualidade, foi feito um levantamento de cada propriedade em separado dos vinhos considerados de boa, média e baixa qualidade.
Após esse levantamento, foi feito um investigação baseado nas correlações entre as propriedades dos vinhos, onde se investigou aquelas correlações que apresentavam os indices mais positivos e negativos, com isso sendo possível identificar padrões de comportamento entre os elementos químicos, para descobrir, quais seriam os mais relevantes em um vinho considerado de boa qualidade.
Foram descobertas 4 variáveis importantes para que o vinho fosse considerado de boa qualidade, sendo elas, Acidez volátil, densidade, alcool e açucar.
Os vinhos considerados de boa qualidade apresentam um baixo nível de cloretos e de açucar , um nível de densidade abaixo de 0.997 e alto teor alcolico (sempre maior que 10%). Uma das dificulades encontradas foi explorar um base de dados onde não se tem nenhum tipo de conhecimento sobre ela. É sempre muito complexo fazer uma análise exploratória, porém quando se tem o conhecimento sobre o assunto, é possível fazer explorações com maior grau de certeza e confiança, o que não acontece em bases totalmente desconhecidas. Neste caso se faz necessário uma pesquisa prévia para entender o assunto para que possomas fazer as perguntas certas, e mais importante, para obtermos respostas coerentes e tenhamos o discernimento para entendê-las, interpretá-las e retirar as informações certas.
Um estudo que pode ser feito com essa base de dados que seria interessante, seria treinar uma máquina de aprendizado com bases nas informações que possuímos hoje, para classificar a qualiade dos vinhos conforme suas características.
Recursos: www.wikipedia.com http://www.winelab.com.br/